Humans intuitively solve tasks in versatile ways, varying their behavior in terms of trajectory-based planning and for individual steps. Thus, they can easily generalize and adapt to new and changing environments. Current Imitation Learning algorithms often only consider unimodal expert demonstrations and act in a state-action-based setting, making it difficult for them to imitate human behavior in case of versatile demonstrations. Instead, we combine a mixture of movement primitives with a distribution matching objective to learn versatile behaviors that match the expert's behavior and versatility. To facilitate generalization to novel task configurations, we do not directly match the agent's and expert's trajectory distributions but rather work with concise geometric descriptors which generalize well to unseen task configurations. We empirically validate our method on various robot tasks using versatile human demonstrations and compare to imitation learning algorithms in a state-action setting as well as a trajectory-based setting. We find that the geometric descriptors greatly help in generalizing to new task configurations and that combining them with our distribution-matching objective is crucial for representing and reproducing versatile behavior.
translated by 谷歌翻译
使用高斯混合模型(GMM)的变异推断能够学习可侵入性目标分布的高度扣除但多模式的近似值。 GMM与最多数百个维度的问题设置特别相关,例如机器人技术,用于对轨迹或联合分布进行建模。这项工作着重于基于GMM的两种非常有效的方法,这些方法既采用独立的自然梯度更新来为单个组件和权重的分类分布。我们首次表明,尽管它们的实际实现和理论保证有所不同,但他们的派生更新是等效的。我们确定了几种设计选择,可以区分两种方法,即在样本选择,自然梯度估计,步骤适应以及信任区域是否得到强制或适应的组件数量方面。我们对这些设计选择进行广泛的消融,并表明它们强烈影响了优化的效率和学习分布的可变性。基于我们的见解,我们提出了对广义框架的新颖实例化,该实例将一阶自然梯度估计与信任区域和组件适应相结合,并且在我们所有实验中都显着优于以前的两种方法。
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译
估计对象的6D姿势是必不可少的计算机视觉任务。但是,大多数常规方法从单个角度依赖相机数据,因此遭受遮挡。我们通过称为MV6D的新型多视图6D姿势估计方法克服了这个问题,该方法从多个角度根据RGB-D图像准确地预测了混乱场景中所有对象的6D姿势。我们将方法以PVN3D网络为基础,该网络使用单个RGB-D图像来预测目标对象的关键点。我们通过从多个视图中使用组合点云来扩展此方法,并将每个视图中的图像与密集层层融合。与当前的多视图检测网络(例如Cosypose)相反,我们的MV6D可以以端到端的方式学习多个观点的融合,并且不需要多个预测阶段或随后对预测的微调。此外,我们介绍了三个新颖的影像学数据集,这些数据集具有沉重的遮挡的混乱场景。所有这些都从多个角度包含RGB-D图像,例如语义分割和6D姿势估计。即使在摄像头不正确的情况下,MV6D也明显优于多视图6D姿势估计中最新的姿势估计。此外,我们表明我们的方法对动态相机设置具有强大的态度,并且其准确性随着越来越多的观点而逐渐增加。
translated by 谷歌翻译
在现实世界中学习机器人任务仍然是高度挑战性的,有效的实用解决方案仍有待发现。在该领域使用的传统方法是模仿学习和强化学习,但是当应用于真正的机器人时,它们都有局限性。将强化学习与预先收集的演示结合在一起是一种有前途的方法,可以帮助学习控制机器人任务的控制政策。在本文中,我们提出了一种使用新技术来利用离线和在线培训来利用离线专家数据的算法,以获得更快的收敛性和提高性能。拟议的算法(AWET)用新颖的代理优势权重对批评损失进行了加权,以改善专家数据。此外,AWET利用自动的早期终止技术来停止和丢弃与专家轨迹不同的策略推出 - 以防止脱离专家数据。在一项消融研究中,与在四个标准机器人任务上的最新基线相比,AWET表现出改善和有希望的表现。
translated by 谷歌翻译
复发状态空间模型(RSSM)是时间序列数据和系统标识中学习模式的高度表达模型。但是,这些模型假定动力学是固定和不变的,在现实世界中,这种动力学很少发生。许多控制应用程序通常表现出具有相似但不相同动力学的任务,这些任务可以建模为潜在变量。我们介绍了隐藏的参数复发状态空间模型(HIP-RSSM),该框架为具有低维的潜在因素集的相关动态系统的家庭参数。我们提出了一种对这种高斯图形模型的学习和执行推理的简单有效方法,该模型避免了诸如变异推理之类的近似值。我们表明,HIP-RSSM在现实世界系统和仿真上的几个挑战性机器人基准上都优于RSSM和竞争性的多任务模型。
translated by 谷歌翻译
我们提出了一种新型的元学习方法,用于对未知物体的6D姿势估计。与“实例级”构成估计方法相反,我们的算法以类别 - 不合命相的方式学习对象表示,从而在对象类别中赋予其具有强大的概括能力。具体而言,我们采用条件神经过程的元学习方法来训练编码器,以基于很少的RGB-D图像和地面真实关键点,以潜在表示中捕获对象的纹理和几何形状。然后,同时进行元训练的解码器使用潜在表示,以预测新图像中对象的6D姿势。为了评估我们的算法,在多个场景(MCMS)中从多个类别生成的新的全通道合成数据集进行了实验。实验结果表明,我们的模型在具有各种形状和外观的看不见的物体上表现良好。
translated by 谷歌翻译
机器人的长期愿景是装备机器人,技能与人类的多功能性和精度相匹配。例如,在播放乒乓球时,机器人应该能够以各种方式返回球,同时精确地将球放置在所需位置。模拟这种多功能行为的常见方法是使用专家(MOE)模型的混合,其中每个专家是一个上下文运动原语。然而,由于大多数目标强迫模型涵盖整个上下文空间,因此学习此类MOS是具有挑战性的,这可以防止基元的专业化导致相当低质量的组件。从最大熵增强学习(RL)开始,我们将目标分解为优化每个混合组件的个体下限。此外,我们通过允许组件专注于本地上下文区域来介绍课程,使模型能够学习高度准确的技能表示。为此,我们使用与专家原语共同调整的本地上下文分布。我们的下限主张迭代添加新组件,其中新组件将集中在当前MOE不涵盖的本地上下文区域上。这种本地和增量学习导致高精度和多功能性的模块化MOE模型,其中可以通过在飞行中添加更多组件来缩放两个属性。我们通过广泛的消融和两个具有挑战性的模拟机器人技能学习任务来证明这一点。我们将我们的绩效与Live和Hireps进行了比较,这是一个已知的分层政策搜索方法,用于学习各种技能。
translated by 谷歌翻译
预测驾驶行为或其他传感器测量是自主驱动系统的基本组成部分。通常是现实世界多变量序列数据难以模拟,因为潜在的动态是非线性的,并且观察是嘈杂的。此外,驾驶数据通常可以在分布中多传,这意味着存在不同的预测,但平均可能会损害模型性能。为解决此问题,我们提出了对非线性和多模态时间序列数据的有效推理和预测的转换复发性卡尔曼网络(SRKN)。该模型在几个卡尔曼滤波器之间切换,该滤波器以分解潜在状态模拟动态的不同方面。我们经验测试了在玩具数据集上产生的可扩展和可解释的深度状态空间模型,并在波尔图中的出租车实际驾驶数据。在所有情况下,该模型可以捕获数据中动态的多模式性质。
translated by 谷歌翻译
逆钢筋学习从专家演示中获取奖励功能,旨在编码专家的行为和意图。目前的方法通常用生成和Uni-Modal模型来执行此操作,这意味着它们编码单个行为。在常见的环境中,在有问题的各种解决方案中,专家显示多功能行为,这严重限制了这些方法的泛化能力。我们提出了一种新颖的逆钢筋学习方法,通过将恢复的奖励作为迭代训练的鉴别者的总和制定回收的奖励来提出克服这些问题。我们展示了我们的方法能够恢复一般,高质量的奖励功能,并产生与专为多才多艺行为设计的行为克隆方法相同的质量的政策。
translated by 谷歌翻译